自由图页中的手写文本识别(HTR)是一项艰巨的图像理解任务,可以为手写文档的数字化和重复使用其内容提供相关的增强。由于写作风格的变化和页面质量降解的变化,该任务在处理历史文档时变得更加具有挑战性。最先进的HTR方法通常将序列建模的复发结构与卷积神经网络进行视觉特征提取。由于卷积内核是在固定网格上定义的,并专注于所有输入像素时在输入映像时独立地独立于所有输入像素,因此该策略无视手写字符在形状,比例和规模和方向上,即使在同一文档中,并且墨水像素为比背景更相关。为了应对这些特定的HTR困难,我们建议采用可变形的卷积,这可能会根据手头的输入而变形,并更好地适应文本的几何变化。我们设计了两个可变形的架构,并在现代和历史数据集上进行了广泛的实验。实验结果证实了可变形卷积对HTR任务的适用性。
translated by 谷歌翻译